emnlp

EMNLP 2025 接收！把“猜-思-答”三步走做成大模型训练新范式

大模型的后训练阶段，很多人都纠结一个问题：到底是用监督微调（SFT），还是强化学习（RL）？SFT 简单高效，但能力上限不高；RL 能力强，但训练又慢又不稳。尤其是在文本分类这个场景，RL 表现一直不如人意。